德国专利DE102004030594A1 Verfahren und System zum Erzeugen einer Webseite

专利PDF首页>>德国专利

专利附录

专利说明

权利要求

类似技术

同族专利

引用文献

法律状态

优先权

专利摘要:
EinVerfahren und System zum Erzeugen einer Webseite sind offenbart.Durch die Verwendung der vorliegenden Erfindung kann verhindertwerden, dass ein spezifischer Inhalt auf einer Webseite durch einen Webkriechmechanismusindexiert wird. Dies ist vorteilhaft für Webseitenbenutzer, die wünschen,dass spezifische Abschnitte einer erzeugten Webseite privat bleiben,währendgleichzeitig andere Abschnitte der Webseite zum Indexieren verfügbar bleiben.Die vorliegende Erfindung umfasst ein Verfahren und ein System zumErzeugen einer Webseite. Dementsprechend ist ein erster Aspekt dervorliegenden Erfindung ein Verfahren zum Erzeugen einer Webseite.Das Verfahren umfasst das Bezeichnen des Inhalts für eine Publizierungauf der Webseite und das Bezeichnen eines spezifischen Abschnittsdes Inhalts, um zu verhindern, dass ein Webkriechmechanismus denspezifischen Abschnitt indexiert.
公开号:DE102004030594A1
申请号:DE102004030594
申请日:2004-06-24
公开日:2005-06-02
发明作者:Dave Loveland Kamholz；Steve Fort Collins Yonkaitis
申请人:Hewlett Packard Development Co LP；
IPC主号:G06F17-30

专利说明:
[0001] Dievorliegende Erfindung bezieht sich allgemein auf das Gebiet voncomputerisierter Publizierungs- und Kenntnis-Verwaltung und insbesondere auf einVerfahren und ein System zum Erzeugen einer Webseite.
[0002] Inletzter Zeit hat ein ungewöhnlichstarkes Wachstum bei der Anzahl von Computern statt gefunden, diemit dem Internet verbunden sind. Ein Klientencomputer, der mit demInternet verbunden ist, kann digitale Informationen von Servercomputernherunterladen. Klientenanwendungssoftware akzeptiert üblicherweiseBefehle von einem Benutzer und erhält Daten und Dienste durchSenden von Anforderungen zu Serveranwendungen, die auf den Servercomputernlaufen. Eine Anzahl von Protokollen wird verwendet, um Befehle undDaten zwischen Computern auszutauschen, die mit dem Internet verbundensind. Die Protokolle umfassen das File Transfer Protocol (FTP),das Hypertext Transfer Protocol (HTTP), das Simple Mail TransferProtocol (SMTP) und das Gopher-Dokumentprotokoll.
[0003] DasHTTP-Protokoll wird verwendet, um auf Daten in dem World Wide Webzuzugreifen, das häufigals „dasWeb" bezeichnetwird. Das Web ist ein Informationsdienst im Internet, der Dokumenteund Verknüpfungenzwischen Dokumenten liefert. Es besteht aus zahlreichen Websites,die auf der ganzen Welt angeordnet sind, die elektronische Dokumente beibehaltenund verteilen. Eine Website kann einen oder mehrere Web-Servercomputerverwenden, die Dokumente in einer Anzahl von Formaten speichern undverteilen, einschließlichder Hyper Text Markup Language (HTML). Ein HTML-Dokument enthält Text undMetadaten (Befehle, die Formatierungsinformationen liefern), sowieeingebettete Verknüpfungen,die auf andere Daten oder Dokumente Bezug nehmen. Die Dokumente,auf die Bezug genommen wird, könnenText, Grafiken oder Video darstellen.
[0004] EinWebbrowser ist eine Klientenanwendung oder vorzugsweise ein integriertesBetriebssystem-Hilfsprogramm, das mit Servercomputern über FTP-,HTTP- und Gopher-Protokolle kommuniziert. Webbrowser empfangen elektronischeDokumente von dem Netzwerk und präsentieren dieselben einem Benutzer.
[0005] DerAusdruck „Suchmaschine" wird häufig allgemeinverwendet, um sowohl wahre Suchmaschinen als auch Richtungen zubeschreiben, obwohl sie nicht dasselbe sind. Suchmaschinen erzeugen üblicherweiseihre Auflistungen automatisch durch „Kriechen" durch das Web. Ein Verzeichnis hängt andererseitsim Hinblick auf seine Auflistungen vom Menschen ab, d. h. einerPerson, die eine kurze Beschreibung für eine gesamte Site übermittelt,oder von Editoren, die eine Beschreibung für Sites schreiben, die sie überprüfen. Dievorliegende Erfindung ist besonders geeignet für (aber nicht notwendigerweisebeschränktauf) die Verwendung bei einer Suchmaschine des Typs, der Informationenautomatisch ansammelt, d. h. durch „Kriechen" durch das Web.
[0006] EineSuchmaschine umfasst üblicherweise einen „Kriecher" (crawler) (ebenfallsgenannt eine „Spinne" (spider) oder ein „Roboter" (bot)), der eine Webseitebesucht, sie liest und dann Verknüpfungen zu anderen Seiten innerhalbder Site folgt. Der Kriecher kehrt zu der Site auf regelmäßiger Basiszurück, umnach Änderungenzu suchen. Alles, was der Kriecher findet, geht in einen Index,der ein weiterer Teil der Suchmaschine ist. Der Index ist wie eineDatei oder ein Behälter,der eine Kopie jeder Webseite enthält, die der Kriecher findet.Wenn eine Webseite sich ändert,dann wird der Index mit neuen Informationen aktualisiert. Die Suchmaschinensoftware,die ein wiederum weiterer Teil der Suchmaschine ist, ist ein Programm,das durch die Seiten siebt, die in dem Index aufgezeichnet sind,um Dokumente zu finden, die eine Suchabfrage erfüllen, die durch einen Benut zer übermitteltwurde. Die Suchmaschinensoftware stuft die Übereinstimmungen üblicherweisegemäß ihrerRelevanz ein.
[0007] Sobaldihm ein Satz von Startadressen und Einschränkungsregeln gegeben wird,kann ein Kriecher Dokumente wiedergewinnen, durch Verfolgen allerrekursiven Verknüpfenvon den Dokumenten, die den Startadressen entsprechen, die die Einschränkungsregelnerfüllen.Die primäreAnwendung des Kriechers ist das Aufbauen eines Index eines Dokumentsatzes,so dass der Index durch Endbenutzer durchsucht werden kann, dieDokumente lokalisieren möchten,die mit bestimmten Suchkriterien übereinstimmen.
[0008] Dader Zugriff auf Informationen so leicht erreichbar wird, wird diePrivatsphäreim Internet zu einer immer wichtigeren Frage. Das Schützen vonpersönlichenInformationen, wie z. B. E-Mailadressen, Telefonnummern, etc. wurdefür Web-Publizierer eine Herausforderung,da die oben beschriebenen Roboter verwendet werden können, umInformationen aus Webseiten abzuziehen, um Mailsendelisten und Kontaktdatenbankenzu erzeugen.
[0009] Kürzlich hatdas World Wide Web Konsortium (W3C) die HTML 4.01-Referenz veröffentlicht.Innerhalb dieser Referenz ist Unterstützung für Meta-Etiketten enthalten,die insbesondere diese Roboter daran hindern, eine Webseite zu indexieren.Diese Meta-Etiketten verhindern jedoch, dass die gesamte Webseiteindexiert wird. Dies ist in Fällenproblematisch, in denen ein Web-Publizierer nur einen bestimmtenAbschnitt einer Webseite benötigt,die geschütztwerden soll.
[0010] Wasdementsprechend benötigtwird ist ein Verfahren und ein System, die in der Lage sind, zu verhindern,dass bestimmte Abschnitte von Webseiten durch Roboter und/oder andereWebkriechmechanismen indexiert werden. Das Verfahren und das Systemsollten einfach sein und in der Lage sein, ohne weiteres an diebestehende Technik angepasst zu werden. Die vorliegende Erfindungadressiert diesen Bedarf.
[0011] Esist die Aufgabe der vorliegenden Erfindung, ein Verfahren zum Erzeugeneiner Webseite, ein Computersystem zum Erzeugen einer Webseite undein Computerprogrammprodukt zum Erzeugen einer Webseite mit verbessertenCharakteristika zu schaffen.
[0012] DieseAufgabe wird durch ein Verfahren zum Erzeugen einer Webseite gemäß Anspruch1 und 17, ein Computersystem zum Erzeugen einer Webseite gemäß Anspruch7 und ein Computerprogrammprodukt zum Erzeugen einer Webseite gemäß Anspruch 13gelöst.
[0013] EinVerfahren und ein System zum Erzeugen einer Webseite sind offenbart.Durch die Verwendung der vorliegenden Erfindung kann verhindertwerden, dass spezifische Inhalte auf einer Webseite durch einenWebkriechmechanismus indexiert wird. Dies ist vorteilhaft für Webseitenbenutzer,die möchten,dass bestimmte Abschnitte einer erzeugten Webseite privat bleiben,währendgleichzeitig andere Abschnitte der Webseite zum Indexieren verfügbar bleiben.
[0014] Dementsprechendist ein erster Aspekt der vorliegenden Erfindung ein Verfahren zumErzeugen einer Webseite. Das Verfahren umfasst das Bezeichnen vonInhalt zur Publizierung auf einer Webseite; und das Bezeichnen einesbestimmten Abschnitts des Inhalts, um zu verhindern, dass ein Webkriechmechanismusdiesen spezifischen Abschnitt indexiert.
[0015] Einzweiter Aspekt der vorliegenden Erfindung ist ein Computersystemzum Erzeugen einer Webseite. Das Computersystem umfasst einen Prozessorund ein Anwendungsprogramm, das mit dem Prozessor gekoppelt ist,wobei das Anwendungsprogramm in der Lage ist, Informationen zurPublizierung auf der Webseite zu bezeichnen und einen spezifischen Abschnittder Informationen zu bezeichnen, um zu verhindern, dass ein Webkriechmechanismus demspezifischen Abschnitt folgt.
[0016] AndereAspekte und Vorteile der vorliegenden Erfindung werden aus der nachfolgendendetaillierten Beschreibung offensichtlich, in Verbindung mit denbeiliegenden Zeichnungen, die die Prinzipien der Erfindung auf darstellendeWeise zeigen.
[0017] DieZeichnungen, auf die hierin Bezug genommen wird, bilden einen Teilder Beschreibung. Merkmale, die in den Zeichnungen gezeigt sind,sollen nur füreinige Ausführungsbeispieleder Erfindung darstellend sein, und nicht für alle Ausführungsbeispiele der Erfindung,außeranderweitig explizit angezeigt, und Schlussfolgerungen zum Gegenteiligsollen anderweitig nicht gemacht werden.
[0018] BevorzugteAusführungsbeispieleder vorliegenden Erfindung werden nachfolgend Bezug nehmend aufdie beiliegenden Zeichnungen nähererläutert.Es zeigen:
[0019] 1 einFlussdiagramm eines Verfahrens gemäß einem Ausführungsbeispielder vorliegenden Erfindung;
[0020] 2 einBlockdiagramm, das ein Allzweckcomputersystem darstellt, bei demAspekte von Ausführungsbeispielender vorliegenden Erfindung integriert sein können;
[0021] 3A einBeispiel einer herkömmlichen Webseite;
[0022] 3B einealternative Konfiguration der Webseite gemäß einem Ausführungsbeispielder vorliegenden Erfindung;
[0023] 3C einBeispiel einer Computersprache, die in Verbindung mit einem Ausführungsbeispielder vorliegenden Erfindung verwendet werden könnte;
[0024] 3D einalternatives Beispiel einer Computersprache, die in Verbindung miteinem Ausführungsbeispielder vorliegenden Erfindung verwendet werden könnte; und
[0025] 4 einFlussdiagramm von Programmanweisungen, die innerhalb eines computerlesbaren Mediumsgemäß dem alternativenAusführungsbeispielder vorliegenden Erfindung enthalten sein könnten.
[0026] Dievorliegende Erfindung bezieht sich auf ein Verfahren und ein Systemzum Erzeugen einer Webseite. Die nachfolgende Beschreibung wirdpräsentiert,um einem Durchschnittsfachmann auf dem Gebiet zu ermöglichen,die Erfindung zu verwenden, und wird in dem Kontext einer Patentanmeldungund ihren Anforderungen bereitgestellt. Verschiedene Modifikationenan den Ausführungsbeispielenund den allgemeinen Prinzipien und Merkmalen, die hierin beschriebensind, sind fürFachleute auf dem Gebiet ohne weiteres offensichtlich. Somit solldie vorliegende Erfindung nicht auf das Ausführungsbeispiel beschränkt sein,das gezeigt ist, sondern soll mit dem größten Umfang übereinstimmen,der den hierin beschriebenen Prinzipien und Merkmalen entsprechen soll.
[0027] EinVerfahren und ein System zum Erzeugen einer Webseite sind offenbart.Durch die Verwendung der vorliegenden Erfindung kann verhindertwerden, dass ein spezifischer Inhalt auf einer Webseite durch einenWebkriechmechanismus indexiert wird. Dies ist für Webseitenbenutzer vorteilhaft,die wünschen, dassspezifische Abschnitte einer erzeugten Webseite privat bleiben,währendgleichzeitig andere Abschnitte der Webseite zum Indexieren verfügbar bleiben.
[0028] Dievorliegende Erfindung kann in Verbindung mit Servercomputern implementiertwerden, um digitale Daten auf einem Netzwerk, wie z. B. dem Internet,zu lokalisieren und wiederzugewinnen. Ein Servercomputer im Internetwird manchmal als eine „Website" bezeichnet, undder Prozess des Lokalisierens und Wiedergewinnens von digitalenDaten aus Websites wird manchmal als „Webkriechen" bezeichnet. DasWebkriechen kann das erstmalige Durchführen eines ersten vollständigen Kriechvorgangs umfassen,wobei ein Transaktionsprotokoll mit einer oder mehreren Dokumentadressspezifikationen „durchsetzt" ist. (Der AusdruckAdressspezifikation, Adressspezifizierer und URL werden bei dieserBeschreibung austauschbar verwendet. Diese Ausdrücke beziehen sich auf einenTyp einer Benennungsübereinkunft,der verwendet werden kann, um eine Datei zu adressieren, und siesollen nicht implizieren, dass die vorliegende Erfindung auf Internetanwendungenbeschränktist.) Jedes Dokument, das in dem Transaktionsprotokoll aufgelistetist, wird aus seiner Website wiedergewonnen und verarbeitet. DasVerarbeiten kann das Extrahieren der Daten aus jedem dieser wiedergewonnenenDokumente und das Speichern dieser Daten in einem Index oder eineranderen Datenbank mit einer zugeordneten „modifizierten Kriechnummer" umfassen, die gleichzu einer einheitlichen aktuellen Kriechnummer eingestellt ist, die demersten vollständigenKriechvorgang zugeordnet ist. Ein Hash-Wert (wie z. B. MD5) für das Dokument undden Zeitstempel des Dokuments kann ebenfalls mit den Dokumentdatenin dem Index gespeichert sein. Der Dokument-URL, sein Hash-Wert, sein Zeitstempelund seine modifizierte Kriechnummer können dann in einer persistentenHistorientabelle gespeichert werden, die durch den Kriecher verwendet wird,um Dokumente aufzuzeichnen, die durch Kriechen erreicht wurden.
[0029] 1 zeigtein Flussdiagramm auf hoher Ebene von einem Verfahren gemäß einemAusführungsbeispielder vorliegenden Erfindung. Ein erster Schritt 110 umfasstdas Bezeichnen von Inhalt fürdie Publizierung auf der Webseite. Zu Zwe cken dieser Patentanmeldungumfasst der Inhalt Textdateien, die in HTML codiert sind, die ebenfallsJavaScript-Code oder andere Befehle enthalten können. Ein abschließender Schritt 120 umfasstdas Bezeichnen eines spezifischen Abschnitt des Inhalts, um zu verhindern, dassein Webkriechmechanismus den spezifischen Abschnitt indexiert. Dementsprechendwird verhindert, dass spezifische Abschnitte einer erzeugten Webseiteindexiert oder verfolgt werden, und diese können daher privat bleiben.
[0030] Webkriecherprogrammewerden auf einem Computer ausgeführt. 2 unddie nachfolgende Erörterungsollen eine kurze allgemeine Beschreibung einer geeigneten Rechenumgebungliefern, in der die Erfindung implementiert sein kann. Obwohl nichterforderlich, wird die Erfindung in dem allgemeinen Kontext voncomputerausführbarenAnweisungen beschrieben, wie z. B. Programmodulen, die durch einenComputer ausgeführtwerden, wie z. B. eine Klientenarbeitsstation oder einen Server.Allgemein umfassen Programmodule Routinen, Programme, Objekte, Komponente,Datenstrukturen und Ähnliches,die bestimmte Aufgaben ausführenoder bestimmte abstrakte Datentypen implementieren. Ferner werdenFachleute auf dem Gebiet erkennen, dass die Erfindung mit anderenComputersystemkonfigurationen praktiziert werden kann, einschließlich handgehaltenenVorrichtungen, Mehrfachprozessorsystemen, Mikroprozessor-basiertenoder programmierbaren Verbraucher-Elektronikeinrichtungen, Netzwerk-PCs,Minicomputern, Mainframe-Computern und Ähnlichem. Die Erfindung kann fernerin verteilten Rechenumgebungen praktiziert werden, in denen Aufgabendurch entfernte Verarbeitungsvorrichtungen durchgeführt werden,die durch ein Kommunikationsnetzwerk verknüpft sind. In einer verteiltenRechenumgebung könnenProgrammodule sowohl in lokalen als auch entfernten Speicherspeicherungsvorrichtungenangeordnet sein.
[0031] Wiein 2 gezeigt ist, umfasst ein exemplarisches Allzweckrecheneinen herkömmlichenPersonalcomputer 200 oder Ähnliches, der eine Verarbeitungseinheit 221,einen Systemspeicher 222 und einen Systembus 223 umfasst,der verschiedene Systemkomponenten, einschließlich dem Systemspeicher, mitder Verarbeitungseinheit 221 koppelt. Der Systembus 223 kanneine von verschiedenen Typen von Busstrukturen sein, einschließlich einem Speicherbusoder einer Speichersteuerung, einem Peripheriebus und einem lokalenBus, der eine einer Vielzahl von Busarchitekturen verwendet. DerSystemspeicher umfasst einen Nur-Lese-Speicher (ROM; ROM = read only memory) 224 undeinen Direktzugriffsspeicher (RAM; RAM = random access memory) 225.
[0032] EinBasis-Eingabe/Ausgabe-System 226 (BIOS), das die Basisroutinenenthält,die helfen, Informationen zwischen Elementen innerhalb des Personalcomputers 200 zu übertragen,wie z. B. währenddes Einschaltens, ist in dem ROM 224 gespeichert. Der Personalcomputer 200 kannferner ein Festplattenlaufwerk 227 umfassen, zum Lesenaus und Schreiben auf eine Festplatte, nicht gezeigt, ein Magnetplattenlaufwerk 228 zumLesen aus oder Schreiben auf eine entfernbare Magnetplatte 229 undein optisches Plattenlaufwerk 230 zum Lesen aus oder Schreibenauf eine entfernbare optische Platte 231, wie z. B. eineCD-ROM oder ein anderes optisches Medium. Das Festplattenlaufwerk 227,das Magnetplattenlaufwerk 228 und das optische Plattenlaufwerk 230 sindmit dem Systembus 223 durch eine Festplattenschnittstelle 232,eine Magnetplattenlaufwerkschnittstelle 233 bzw. eine optischeLaufwerkschnittstelle 234 verbunden. Die Laufwerke undihre zugeordneten computerlesbaren Medien liefern einen nichtflüchtigenSpeicher mit computerlesbaren Anweisungen, Datenstrukturen, Programmodulen undanderen Daten fürden Personalcomputer 200.
[0033] Obwohldas exemplarische Ausführungsbeispiel,das hierin beschrieben ist, eine Festplatte, eine entfernbare Magnetplatte 229 undeine entfernbare optische Platte 231 verwendet, solltenFachleute auf dem Gebiet erkennen, dass andere Typen von computerlesbarenMedien, die Daten speichern können, diedurch einen Computer zugreifbar sind, wie z. B. Magnetkassetten,Flashspeicherkarten, digitale Videoplatten, Bernoulli-Kassetten,Direktzugriffsspeicher (RAMs), Nur-Lese-Speicher (ROMs) und ähnliches,ebenfalls in der exemplarischen Betriebsumgebung verwendet werdenkönnen.
[0034] EineAnzahl von Programmodulen kann auf der Festplatte, der Magnetplatte 229,der optischen Platte 231, dem ROM 224 oder demRAM 225 gespeichert sein, einschließlich einem Betriebssystem 235,einem oder mehrerer Anwendungsprogramme 236, anderer Programmmodule 237 undProgrammdaten 238. Ein Benutzer kann Befehle und Informationenin den Personalcomputer 200 durch Eingabevorrichtungeneingeben, wie z. B. eine Tastatur 240 und eine Zeigevorrichtung 242.Andere Eingabevorrichtungen (nicht gezeigt) können ein Mikrophon, einen Joystick,eine Spieleanschlussfläche,eine Satellitenplatte, einen Scanner oder Ähnliches umfassen. Diese undandere Eingabevorrichtungen sind häufig mit der Verarbeitungseinheit 221 durcheine serielle Torschnittstelle 246 verbunden, die mit demSystembus gekoppelt ist, könnenaber durch andere Schnittstellen verbunden sein, wie z. B. ein parallelesTor, ein Spieletor oder einen universellen seriellen Bus (USB).
[0035] EinMonitor 247 oder ein anderer Typ einer Anzeigevorrichtungist ebenfalls mit dem Systembus 223 über eine Schnittstelle verbunden,wie z. B. einen Videoadapter 248. Zusätzlich zu dem Monitor 247 umfassenPersonalcomputer üblicherweiseandere Peripherieausgabevorrichtungen (nicht gezeigt), wie z. B.Lautsprecher und Drucker. Das exemplarische System aus 2 umfasstferner einen Hostadapter 255, einen Small Computer SystemInterface Bus (SCSI-Bus) 256 und eine externe Speicherungsvorrichtung 262,die mit dem SCSI-Bus 256 verbunden ist.
[0036] DerPersonalcomputer 200 kann in einer Netzwerkumgebung unterVerwendung von logischen Verbindungen mit einem oder mehreren entferntenComputern arbeiten, wie z. B. einem entfernten Computer 249.Der entfernte Computer 249 kann ein anderer Personalcomputer,ein Server, ein Router, ein Netzwerk-PC, eine Partnervorrichtungoder ein anderer gemeinsamer Netzwerkknoten sein und umfasst üblicherweiseviele oder alle Elemente, die oben relativ zu dem Personalcomputer 200 beschriebenwurden, obwohl nur eine Speicherspeicherungsvorrichtung 250 in 2 dargestelltwurde. Die logischen Verbindungen, die in 2 gezeigtsind, umfassen ein lokales Netz (LAN; LAN = local area network) 251 undein weites Netz (WAN; WAN = wide area network) 252. SolcheNetzwerkumgebungen sind in Büros,unternehmensweiten Computernetzen, Intranets und dem Internet allgemein üblich.
[0037] Wenner in einer LAN-Netzwerkumgebung verwendet wird, ist der Personalcomputer 200 mit demLAN 251 durch eine Netzwerkschnittstelle oder einen Adapter 253 verbunden.Wenn er in einer WRN-Netzwerkumgebung verwendet wird, umfasst derPersonalcomputer 200 üblicherweiseein Modem 254 oder eine andere Einrichtung zum Einrichtenvon Kommunikationen überdas weite Netz 252, wie z. B. das Internet. Das Modem 254,das intern oder extern sein kann, ist mit dem Systembus 223 über dieserielle Torschnittstelle 246 verbunden. In einer NetzwerkumgebungkönnenProgrammodule, die relativ zu dem Personalcomputer 200 oderzu Abschnitten desselben gezeigt sind, in der entfernten Speicherspeicherungsvorrichtunggespeichert sein. Es wird darauf hingewiesen, dass die Netzwerkverbindungen,die gezeigt sind, exemplarisch sind, und dass andere Einrichtungenzum Einrichten einer Kommunikationsverknüpfung zwischen den Computernverwendet werden können.
[0038] Wievorangehend erwähntwurde, hat das World Wide Web Consortium eine HTML-4.01-Referenzveröffentlicht.Innerhalb dieser Version von HTML besteht eine Unterstützung für Meta-Etiketten, dievorzugsweise verhindern, dass Roboter eine Webseite durchkriechenoder indexieren. Verschiedene Ausführungsbeispiele der vorliegendenErfindung liefern jedoch Privatsphäre mit feinerer Auflösung. InsbesondereermöglichenAusführungsbeispieleder vorliegenden Erfindung den Robotern ein Verfahren, einen spezifischenInhalt auf einer Webseite zu identifizieren, der nicht indexiertoder verfolgt werden sollte.
[0039] HTML-Dokumentebestehen aus HTML-Etiketten. HTML-Etiketten bestehen aus HTML-Attributen.Die Etiketten helfen dabei, das HTML-Dokument zu definieren, während Attributedabei helfen, das Etikett zu definieren. Dementsprechend könnten sowohlEtiketten als auch Attribute verwendet werden, um beim Formatiereneines HTML-Dokuments gemäß der vorliegendenErfindung zu helfen.
[0040] DasNachfolgende sind Beispiele von HTML-Etiketten, die verwendet werdenkönnten,um einen spezifischen Inhalt zu bezeichnen, für den verhindert wird, dassderselbe durch einen Roboter indexiert oder verfolgt wird: <robot = „noindex,nofollow">content</robot> <robot = „noindex">content</robot> <robot = „nofollow">content</robot>
[0041] DurchIntegrieren dieser Etikette um einen spezifischen Webseiteninhaltwerden Roboter daran gehindert, diesen Inhalt zu indexieren oderzu verfolgen. Folglich könnteein Web-Publizierer eine E-Mail-Adresse in diese Etiketten einschließen, wodurchein Roboter daran gehindert wird, die E-Mail-Adresse zu indexieren.
[0042] Einalternatives Ausführungsbeispielder vorliegenden Erfindung würdeermöglichen,dass HTML-Etiketten Attribute erben, die Roboter daran hindern würden, einenspezifischen Inhalt zu indexieren oder zu verfolgen. Das Nachfolgendesind Beispiele von HTML-Attributen, die verwendet werden könnten, umzu bezeichnen, dass verhindert wird, dass ein spezifischer Inhaltdurch einen Roboter indexiert oder verfolgt wird: robot = „noindex,nofollow" robot= „noindex" robot = „nofollow"
[0043] Für ein besseresVerständnisder vorliegenden Erfindung wird Bezug auf 3A – 3D genommen. 3A zeigteine herkömmlicheWebseite 300. Die Webseite 300 umfasst persönliche Informationen 305.Entsprechend ist es erwünscht,einen Roboter daran zu hindern, Abschnitte der persönlichen Informationen 305 zuverfolgen oder zu indexieren.
[0044] In 3B werdendie persönlichenInformationen in einen Abschnitt A 310 und einen Abschnitt B 320 getrennt. 3C demonstriert,wie HTML-Attribute verwendet werden müssen, um zu verhindern, dassein spezifischer Inhalt durch einen Roboter verfolgt wird, gemäß einemAusführungsbeispielder vorliegenden Erfindung. Der HTML-Code, der in 3C gezeigtist, umfasst ein Etikett 311, wobei das Etikett 311 eineMehrzahl von Attributen 312, 313, 314 umfasst.Dementsprechend erkennt ein Roboter das Attribut 314 alseinen Indikator, wodurch ein spezifischer Inhalt 315, derdem Attribut 314 zugeordnet ist, nicht verfolgt oder indexiertwerden soll. Folglich wird der Inhalt in Abschnitt A 310 nichtdurch einen Roboter verfolgt oder indexiert.
[0045] Auf ähnlicheWeise demonstriert 3D, wie HTML-Etiketten verwendetwerden sollen, um zu verhindern, dass ein spezifischer Inhalt durcheinen Roboter verfolgt wird, gemäß einemAusführungsbeispielder vorliegenden Erfindung. Ein HTML-Code 320' entsprichtden persönlichenInformationen, die in dem Abschnitt B 320 aus 3C enthaltensind. Entsprechend erkennt ein Roboter ein Etikett 321 als einenIndikator, wodurch ein spezifischer Inhalt 320', der dem Etikett 321 zugeordnetist, nicht verfolgt oder indexiert werden soll. Folglich wird derInhalt in Abschnitt B 320 nicht durch einen Roboter verfolgtoder indexiert.
[0046] Obwohldie oben beschriebenen Ausführungsbeispielein dem Kontext beschrieben wurden, dass sie in Verbindung mit einerHTML-Computersprache verwendet werden, wird ein Durchschnittsfachmannauf dem Gebiet ohne weiteres erkennen, dass eine Vielzahl von Sprachen,z. B. XML, verwendet werden könnte,währenddas Wesen und der Schutzbereich der vorliegenden Erfindung beibehaltenwerden.
[0047] Dieoben beschriebenen Ausführungsbeispieleder Erfindung könnenferner z. B. durch Betreiben eines Computersystems implementiertwerden, um eine Sequenz von maschinenlesbaren Anweisungen auszuführen. DieAnweisungen könnenin verschiedenen Typen von computerlesbaren Medien vorliegen. Diesbezüglich beziehtsich ein anderer Aspekt der vorliegenden Erfindung auf ein Programmprodukt,das computerlesbare Medien aufweist, die greifbar ein Programm ausmaschinenlesbaren Anweisungen verkörpern, die durch einen digitalenDatenprozessor ausführbarsind, um das Verfahren gemäß einemAusführungsbeispielder vorliegenden Erfindung auszuführen.
[0048] Diesescomputerlesbare Medium kann z. B. einen RAM (nicht gezeigt) aufweisen,der in dem System enthalten ist. Alternativ können die Anweisungen in einemanderen computerlesbaren Medium enthalten sein, wie z. B. einerMagnetdatenspeicherungskassette, und können direkt oder indirekt durch dasComputersystem zugegriffen werden. Egal ob sie in dem Computersystemoder anderswo enthalten sind, die Anweisungen können auf einer Vielzahl vonmaschinenlesbaren Speicherungsmedien gespeichert sein, wie z. B.einer DRSD-Speicherung(z. B. einem herkömmlichen „Laufwerk" oder einem RAID-Array),einem Magnetband, einem elektronischen Nur-Lese-Speicher, eineroptischen Speicherungsvorrichtung (z. B. CDROM, WORM, DV D, digitalesoptisches Band), oder einem anderen geeigneten computerlesbarenMedium, das Übertragungsmedienumfasst, wie z. B. digitale, analoge und drahtlose Kommunikationsverknüpfungen.Bei einem darstellenden Ausführungsbeispielder Erfindung könnendie maschi nenlesbaren Anweisungen Zeilen aus kompiliertem C, C++oder ähnlichemSprachcode aufweisen, der üblicherweisedurch Fachleute beim Programmieren dieses Typs einer Anwendungstechnikverwendet wird.
[0049] 4 istein Flussdiagramm von Programmanweisungen, die in einem computerlesbarenMedium enthalten sein könnten,gemäß dem alternativenAusführungsbeispielder vorliegenden Erfindung. Ein erster Schritt 410 umfasstdas Ermöglichen,dass Inhalt füreine Publikation auf der Webseite bezeichnet wird. Ein abschließender Schritt 420 umfasstdas Ermöglichen,dass ein spezifischer Abschnitt des Inhalts bezeichnet wird, umzu verhindern, dass ein Webkriechmechanismus den spezifischen Abschnitt indexiert.
[0050] EinVerfahren und ein System zum Erzeugen einer Webseite sind offenbart.Durch die Verwendung der vorliegenden Erfindung kann verhindertwerden, dass ein spezifischer Inhalt auf einer Webseite durch einenWebkriechmechanismus indexiert wird. Dies ist vorteilhaft für Webseitenbenutzer,die wünschen, dassspezifische Abschnitte einer erzeugten Webseite privat bleiben,währendgleichzeitig andere Abschnitte der Webseite zum Indexieren verfügbar bleiben.
[0051] Obwohldie vorliegende Erfindung gemäß den gezeigtenAusführungsbeispielenbeschrieben wurde, werden Durchschnittsfachleute auf dem Gebietohne weiteres erkennen, dass Abweichungen von den Ausführungsbeispielenvorkommen können, unddass diese Abweichung innerhalb des Wesens und des Schutzbereichsder vorliegenden Erfindung liegen würden. Dementsprechend können vieleModifikationen durch Durchschnittsfachleute auf dem Gebiet durchgeführt werden,ohne von dem Wesen und dem Schutzbereich der beiliegenden Ansprüche abzuweichen.

权利要求:
Claims (20)
[1] Verfahren zum Erzeugen einer Webseite, das folgendeSchritte aufweist: Bezeichnen von Inhalt (305) für eine Publikationauf der Webseite (300); und Bezeichnen eines spezifischenAbschnitts (310, 320) des Inhalts (305),um zu verhindern, dass ein Webkriechmechanismus den spezifischenAbschnitt (310) indexiert.
[2] Verfahren gemäß Anspruch1, bei dem das Bezeichnen des spezifischen Abschnitts des Inhaltsferner folgenden Schritt aufweist: Verwenden eines Etiketts(321), um den spezifischen Abschnitt (320) desInhalts (305) zu bezeichnen.
[3] Verfahren gemäß Anspruch2, bei dem das Etikett ein Roboteretikett aufweist.
[4] Verfahren gemäß einemder Ansprüche1 bis 3, bei dem das Bezeichnen eines spezifischen Abschnitts (310, 320)des Inhalts (305) ferner folgenden Schritt aufweist: Verwendeneines Attributs (314), um den spezifischen Abschnitt (310)des Inhalts (305) zu bezeichnen.
[5] Verfahren gemäß Anspruch4, bei dem das Attribut (314) ein Roboterattribut aufweist.
[6] Verfahren gemäß einemder Ansprüche1 bis 5, bei dem das Indexieren des spezifischen Abschnitts fernerdas Verfolgen des spezifischen Inhalts aufweist.
[7] Computersystem zum Erzeugen einer Webseite, das folgendeMerkmale aufweist: einen Prozessor (221); einAnwendungsprogramm (236), das mit dem Prozessor (221)gekoppelt ist, wobei das Anwendungsprogramm (236) in derLage ist, Informationen (305) für eine Publikation auf der Webseite(300) zu bezeichnen; und einen spezifischen Abschnitt(310, 320) der Informationen (305) zubezeichnen, um zu verhindern, dass ein Webkriechmechanismus demspezifischen Abschnitt (310, 320) folgt.
[8] System gemäß Anspruch7, bei dem das Bezeichnen eines spezifischen Abschnitts (320)der Informationen (305) ferner folgenden Schritt aufweist: Implementiereneines Etiketts (321), um den spezifischen Abschnitt (320)der Informationen (305) zu bezeichnen.
[9] System gemäß Anspruch8, bei dem das Etikett (321) ein Roboteretikett aufweist.
[10] System gemäß einemder Ansprüche7 bis 9, bei dem das Bezeichnen eines spezifischen Abschnitts (310)der Informationen ferner folgenden Schritt aufweist: Implementiereneines Attributs (314), um den spezifischen Abschnitt (310)der Informationen (305) zu bezeichnen.
[11] System gemäß Anspruch10, bei dem das Attribut (314) ein Roboterattribut aufweist.
[12] System gemäß einemder Ansprüche7 bis 11, bei dem das Verfolgen des spezifischen Abschnitts fernerdas Indexieren des spezifischen Inhalts aufweist.
[13] Computerprogrammprodukt zum Erzeugen einer Webseite,wobei das Computerprogrammprodukt ein computerverwendbares Mediumaufweist, das eine computerlesbare Programmeinrichtung aufweist,um zu verursachen, dass ein Computer folgende Schritte ausführt: Ermöglichen,dass Inhalt füreine Publikation auf der Webseite bezeichnet wird; und Ermöglichen,dass ein spezifischer Abschnitt des Inhalts bezeichnet wird, umzu verhindern, dass ein Webkriechmechanismus den spezifischen Abschnitt indexiert.
[14] Computerprogrammprodukt gemäß Anspruch 13, bei dem dasBezeichnen eines spezifischen Abschnitts des Inhalts ferner folgendenSchritt aufweist: Verwenden eines Etiketts, um den spezifischenAbschnitt des Inhalts zu bezeichnen.
[15] Computerprogrammprodukt gemäß Anspruch 14, bei dem dasEtikett (321) ein Roboteretikett aufweist.
[16] Computerprogrammprodukt gemäß einem der Ansprüche 13 bis15, bei dem das Bezeichnen eines spezifischen Abschnitts des Inhaltsferner folgenden Schritt aufweist: Verwenden eines Attributs,um den spezifischen Abschnitt des Inhalts zu bezeichnen.
[17] Verfahren zum Erzeugen einer Webseite, das folgendeSchritte aufweist: Bezeichnen von Inhalt für eine Publikation auf der Webseite; Verwendeneines Etiketts, um einen spezifischen Abschnitt des Inhalts zu bezeichnen,um zu verhindern, dass ein Webkriechmechanismus den spezifischen Abschnittindexiert, wobei das Etikett ein Roboteretikett aufweist.
[18] Verfahren gemäß Anspruch17, bei dem das Indexieren ferner ein Verfolgen aufweist.
[19] Verfahren gemäß Anspruch17 oder 18, bei dem das Verwenden eines Etiketts zum Bezeichnen einesspezifischen Abschnitts des Inhalts ferner folgenden Schritt aufweist: Verwendeneines Attributs, um den spezifischen Abschnitt des Inhalts zu bezeichnen.
[20] Verfahren gemäß Anspruch19, bei dem das Attribut (321) ein Roboterattribut aufweist.

类似技术:

公开号 | 公开日 | 专利标题

US9721017B2|2017-08-01|Search and navigation to specific document content

US9355177B2|2016-05-31|Web crawler scheduler that utilizes sitemaps from websites

US9760570B2|2017-09-12|Finding and disambiguating references to entities on web pages

US9436719B2|2016-09-06|Updating an inverted index in a real time fashion

US9298702B1|2016-03-29|Systems and methods for pairing of a semantic network and a natural language processing information extraction system

US8655888B2|2014-02-18|Searching documents for ranges of numeric values

US9305100B2|2016-04-05|Object oriented data and metadata based search

Bar-Yossef et al.2002|Template detection via data mining and its applications

Olston et al.2010|Web crawling

Fu et al.2010|A focused crawler for Dark Web forums

JP5368100B2|2013-12-18|概念ベースの検索および解析のためのシステム、方法、およびコンピュータプログラム製品

RU2335013C2|2008-09-27|Способы и системы для улучшения ранжирования поиска с использованием информации о статье

US7730054B1|2010-06-01|Systems and methods for providing searchable prior history

US7809716B2|2010-10-05|Method and apparatus for establishing relationship between documents

US7415469B2|2008-08-19|Method and apparatus for searching network resources

US6601075B1|2003-07-29|System and method of ranking and retrieving documents based on authority scores of schemas and documents

Chen et al.2004|Web mining: Machine learning for web applications

Jain et al.2009|Infrastructure for the life sciences: design and implementation of the UniProt website

Handschuh et al.2003|On deep annotation

US7275114B2|2007-09-25|Web address converter for dynamic web pages

US7130867B2|2006-10-31|Information component based data storage and management

US6539376B1|2003-03-25|System and method for the automatic mining of new relationships

JP4731479B2|2011-07-27|検索システム及び検索方法

US6732090B2|2004-05-04|Meta-document management system with user definable personalities

US8315850B2|2012-11-20|Web translation provider

同族专利:

公开号 | 公开日

GB2407415A|2005-04-27|

GB0423437D0|2004-11-24|

US20050091580A1|2005-04-28|

引用文献:

公开号 | 申请日 | 公开日 | 申请人 | 专利标题

法律状态:
2005-06-02| OP8| Request for examination as to paragraph 44 patent law|

2006-12-21| 8130| Withdrawal|

优先权:

申请号 | 申请日 | 专利标题

[返回顶部]